统计学入门(11): 列联表及卡方检验
统计学入门(11): 列联表及卡方检验 - 拷贝
引言
01
在统计学中,变量分为连续变量和分类变量。连续变量如身高、体重,可以取任何值;而分类变量如性别、血型,表示特定的类别。当我们研究连续变量时,通常关注它们的平均值、标准差等统计量,以及它们是如何在整体中分布的。我们可能会用t检验来比较两组数据的平均值是否有显著差异。然而,当我们处理分类变量时,我们关注的焦点转向了频数(即某一类别出现的次数)和比例。在这种情况下,我们经常使用的假设检验方法之一是卡方检验。通过比较实际观察频数与两变量独立时的期望频数,卡方检验可以帮助我们判断变量间是否存在关联。接下来,让我们来了解下这个工具及相关概念。
列联表
02
列联表(Contingency Table)是用于展示两个或多个分类变量之间关系的表格。它通常用于显示不同类别间的频数或比例,帮助我们分析变量之间是否存在关联或依赖关系。
列联表的历史可以追溯到19世纪,其早期应用主要集中在社会科学、生物统计学和医学研究中。19世纪末,英国数学家和统计学家卡尔·皮尔逊对列联表进行了系统的研究,并发展了用于分析列联表数据的χ²(卡方)检验,卡方检验提供了一种评估两个分类变量是否独立的统计方法。20世纪初,英国统计学家罗纳德·费舍尔进一步发展了列联表的统计分析方法。他提出了适用于小样本数据分析的精确检验(Fisher's Exact Test)。
列联表的基本结构是由行和列构成,每一行代表一个分类变量的一个水平,每一列代表另一个分类变量的一个水平。
一个典型的2x2列联表如下所示,用于展示两个二分类变量A和B的关系:
n11 表示A的分类1和B的分类1同时发生的频数。
n12 表示A的分类1和B的分类2同时发生的频数。
n21 表示A的分类2和B的分类1同时发生的频数。
n22 表示A的分类2和B的分类2同时发生的频数。
让我们来看一个具体的例子。在文本分析中,列联表可以用来分析文本数据中不同类别(如情感类别、主题类别等)与特定词汇或短语的出现频率之间的关系。下面我们来看下如何使用列联表来分析情感类别(正面、负面)与特定词汇(例如“好”和“差”)的关系。
背景
假设我们有一组简单的文本数据,这组数据包含顾客对某产品的评价。我们的目标是分析词汇“好”和“差”在正面评价和负面评价中的使用频率。
数据示例
正面评价: 50条(“好”出现30次,“差”出现5次)
负面评价: 50条(“好”出现10次,“差”出现25次)
构建列联表
分析
通过列联表,我们可以观察到“好”这个词在正面评价中出现的频率(30次)远高于负面评价中的频率(10次)。相反,“差”这个词在负面评价中的出现频率(25次)远高于正面评价(5次)。这个简单的分析展示了词汇使用与情感倾向之间的潜在关系。
进一步分析
为了确定这种观察到的关系是否统计显著,我们可以使用卡方检验来评估两个分类变量(即情感类别和词汇使用)之间的独立性。如果卡方检验的p值小于某个阈值(例如0.05),我们可以拒绝独立性的零假设,认为词汇使用与情感类别之间存在显著的关联。
卡方检验
03
卡方检验(Chi-square test)由英国统计学家卡尔·皮尔逊(Karl Pearson)在1900年首次提出。皮尔逊是现代统计学的奠基人之一,他的工作为统计学的发展奠定了重要基础。卡方检验最初是为了分析分类数据而开发的,尤其是用于检验两个分类变量之间是否独立。
卡方检验的核心思想是比较观察频数(实际数据中的频数)和期望频数(如果两个变量独立,则理论上预期的频数)之间的差异。检验的基本步骤包括:
建立假设
零假设(H0):两个分类变量是独立的,没有关联。
对立假设(H1):两个分类变量不是独立的,存在关联。
计算期望频数
基于边际总数(行总和列总),计算在零假设成立的情况下,每个类别组合的理论频数。
计算卡方统计量
使用以下公式,
其中Oi是观察频数,Ei是期望频数。这个统计量表示观察频数和期望频数之间的差异程度。
确定显著性
根据计算出的卡方值和自由度(通常为(行数−1)×(列数−1)(行数−1)×(列数−1)),查找卡方分布表或使用统计软件来确定p值。如果p值小于事先设定的显著性水平(如0.05),则拒绝零假设,认为两个变量之间有显著的关联。
怎么得出期望频数?
05
期望频数在卡方检验中是根据零假设(即两个分类变量是独立的)计算得出的。期望频数反映了如果零假设为真,即两个变量之间没有关联,我们预期在每个类别组合中观察到的频数。计算期望频数的公式如下:
这里的Eij代表第i行和第j列交叉点的期望频数。
让我们来看一个具体的例子。假设我们调查了100名学生是否喜欢运动(是或否)以及他们的学习成绩(高或低),得到的列联表如下:
现在,我们用上面的公式来计算期望频数。对于“喜欢运动”和“高成绩”的组合:
对于“喜欢运动”和“低成绩”的组合:
对于“不喜欢运动”和“高成绩”的组合:
对于“不喜欢运动”和“低成绩”的组合:
通过计算,我们得到了每个类别组合的期望频数。现在我们使用这些期望频数和实际观察频数来计算卡方统计量,并进行假设检验。
实际观察频数与期望频数
卡方统计量的计算公式为:
其中,Oi是观察频数,Ei是期望频数。
对于上表中的每个单元格,我们应用这个公式,最后得到:
喜欢运动 & 高成绩:3.33
喜欢运动 & 低成绩:5
不喜欢运动 & 高成绩:3.33
不喜欢运动 & 低成绩:5
把这些值加起来得到卡方统计量的总和:
χ2=3.33+5+3.33+5=16.66
确定显著性
为了判断这个卡方统计量是否指示学生是否喜欢运动与他们的学习成绩之间存在统计显著的关系,我们需要确定显著性水平(通常选择0.05)并查找卡方分布表,或使用统计软件确定p值。
自由度(df)是由类别数减去1计算得出的。在这个例子中,有两个类别(喜欢运动与否,高成绩与低成绩),所以自由度为:
df=(行数−1)×(列数−1)=(2−1)×(2−1)=1
使用自由度为1和卡方统计量为16.66,我们可以在卡方分布表中查找,或使用统计软件来确定p值。如果p值小于0.05,我们可以拒绝零假设,认为喜欢运动与学习成绩之间存在统计显著的关联。
具体案例
05
假设我们正在研究两个词语“经济”和“增长”是否倾向于一起出现在新闻报道中,比其单独出现的频率要高,以此来分析这两个词语是否构成一个稳定的词语搭配(collocation)。我们可以通过构建一个列联表,并运用卡方检验来分析它们的搭配是否显著。
数据收集
首先,我们从一批新闻报道中收集数据,记录以下四种情况的出现频次:
“经济”和“增长”一起出现
“经济”出现,但“增长”不出现
“增长”出现,但“经济”不出现
两个词都不出现
在收集过程中,直接统计两个词都出现或单独出现的情况相对容易,因为你可以直接搜索这些词汇并计数。要计算两个特定词汇都不出现的频数,通常需要对整个数据集进行完整的分析,即得到文本集中所有文本的数量,然后从中减去其他三种情况的频数。
样本数据
假设我们最后得到的样本数据如下:
得到样本数据后,我们可以使用R语言、Python、SPSS、Excel等进行卡方检验,根据检验结果判断显著性。如果p值小于预设的显著性水平(通常为0.05),则我们拒绝零假设,认为“经济”和“增长”一起出现的频率高于随机搭配的频率,即这两个词构成一个稳定的词语搭配。
结语
06
在分析分类数据时,列联表和卡方检验是探索和揭示变量之间潜在关联的重要工具。列联表直观地呈现类别间频数分布,帮助我们直观地看到数据模式。卡方检验进一步评估这些模式的统计显著性,让我们区分出显著关联与随机波动。后续我们会继续介绍其他统计学知识,敬请关注!
相关文章
统计学入门(1)——描述统计与推断统计
统计学入门(2)——总体与样本
统计学入门(3):如何刻画数据——参数与统计量
统计学入门(4):数据的类别、来源与质量
统计学入门(5):数据类别与测量层次
统计学入门(6) - Z-score
统计学入门(7): T-score
统计学入门(8): F检验
参考文献
Chi Square Test Yes No Data. (2022, September 2). Isai-Has-Jordan. https://isai-has-jordan.blogspot.com/2022/09/chi-square-test-yes-no-data.html
Chi-Square Independence Test—The Ultimate Guide. (2022). Retrieved March 4, 2024, from https://www.spss-tutorials.com/chi-square-independence-test/
公众号|语言科学漫谈